POMDP与MDP的区别?部分可观测如何理解?

您所在的位置:网站首页 pomdp belief POMDP与MDP的区别?部分可观测如何理解?

POMDP与MDP的区别?部分可观测如何理解?

2023-03-26 18:22| 来源: 网络整理| 查看: 265

举个例子,有A,B 两种状态。Agent一开始可能在两种状态中的一种,并且有两种可能的action, 要么stay, 要么move。 在A的时候utility0 为0, B的时候utility为1。从A出发只有0.9的概率会达到B,0.1的概率出发然后回到A,从B出发同理。

MDP:

已知agent一开始是在状态A,

Q(A, stay) = Uo + [0.9 * 0 + 0.1 * 1] = 0 + 0.1 = 0.1

Q(A, move) = Uo + [0.1 * 0 + 0.9 * 1] = 0 + 0.9 = 0.9

Umax = Max( Q(A, stay), Q(A, move) ) = move

已知agent一开始是在状态B,

Q(B, stay) = Uo + [0.9 * 1 + 0.1 * 0] = 0.9 + 1 = 1.9

Q(B, move) = Uo + [0.1 * 1 + 0.9 * 0] = 0.1 + 1 = 1.1

Umax = Max( Q(B, stay), Q(B, move) ) = stay

POMD: 由于信息不完全,可能一开始agent并不知道自己在A还是在B,于是需要给分别可能在A,或者B的可能性赋予权重,

权重:假设有0.4的可能一开始在A,0.6的可能性一开始在B。

U (stay) = 0.4 * 0.1 + 0.6 * 1.9 = xxx

U (move) = 0.4 * 0.9 + 0.6 * 1.1 = xxx



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3